常见机器学习算法
分类
线性回归
简单线性回归,只有一个独立变量 多远线性回归, 具有多个独立变量
线性回归主要用于给予连续变量估计实际值。
逻辑回归
一种分类算法,也称 logit 回归。用语根据给定的一组自变量来估计离散值,如 0 或 1,真或假,是或否。基本上,它预测概率,因此它的输出在 0 和 1 只见。
决策树
支持向量机(SVM)
用于分类和回归问题。
朴素贝叶斯
使用贝叶斯定力来构建分类器,假设预测变量是独立的,累中某个特征的存在与任何其他特征的存在无关。特点是易于构建,特别适用于大型数据集。
K - 最近令居(KNN)
用于问题的分类和回归,广泛用于解决分类问题。存储所有可用的案例,并距离通过其 K 个邻居的多数选票来分类新案例。然后将该情况分配给通过函数测量的 K 近邻中最常见的类。距离函数可以是欧几里得,明可夫斯基和海明距离。
- 计算上 KNN 比用于分类问题的其他算法昂贵。
- 变量的桂芳华需要其他更高范围变量可以偏差。
- 在 KNN 中,需要在噪音消除等预处理阶段进行。
K 均值聚类
解决聚类问题。一种无监督学习。K-Means 聚类算法的主要逻辑是通过许多聚类对数据集进行分类。按这些步骤通过 K-means 形成聚类。
- K-means 为每个簇选取 k 个点,称为质心。
- 每个数据点形成最接近质心的群集,即 k 个群集。
- 根据现有集群成员查找每个集群的质心。
- 重复知道收敛。
随记森林
监督分类算法,可以用于分类和回归两类问题。决策树的集合。每棵树给出一个分类,并且森林从他们中选择最好的分类。
优点:
- 随记森林分类器可用于分类和回归任务。
- 可以处理缺失的值。
- 即使在森林中有更多的树,它也不会过度适合模型。